探秘Transformer系列之(14)---
残差网络和归一化
目录
探秘Transformer系列之(14)---
残差网络和归一化
0x00 概述
0x01 残差连接
1.1 问题
1.2 相关知识
shortcut connections
恒等映射
1.3 网络结构
论文V1
论文V2
1.4 功用
梯度消失
缓解退化
层间修正
掩码 VS 残差
0x02 归一化
2.1 问题
2.2 定义
2.3 类型
0x03 BatchNorm
3.1 公式
3.2 作用
3.3 PyTorch使用
3.4 问题
0x04 layerNorm
4.1 解决方案
4.2 公式
4.3 作用
4.4 LN和BN的差异
作用对象
作用方向
业务选择
CV
NLP
具体实现
4.5 Post-Norm VS Pre-Norm
概念
论文实现
Post-Norm
难以训练
需要热身
Pre-Norm
小结
0x05 扩展比对
5.1 Instance Norm
5.2 GroupNorm
5.3 比对
类比
细节
0x06 实现
6....
每日一言
Loading...
标签
- Cross-phenological-region
- English
- Foo
- GIS
- Image Processing
- LLM
- Mac Macos
- Ros机器人
- Self-Supervise
- Self-supervised learning
- Sequence Processing
- TypeScript
- classification
- cloud removal
- cloud_removal
- code
- crop classification
- debug
- diffusion
- docker
- git
- javascript
- k8s,Kubernetes
- markdown, md
- remote sensing
- vscode
- vscode插件开发
- 云操作系统
- 入学材料
- 图像处理
- 大模型
- 强化学习
- 数据库
- 早期分类
- 时间序列分类
- 机器学习
- 监督微调
- 研究生周报
- 群等不变性
- 自监督
- 表征学习
- 资料